Koubský: Vývojářům došla data z internetu, musí použít umělá. Al se poprvé dozví i o vlastní existenci

Autor

iRozhlas - David Slížek

Publikováno

21. června 2023

Vývojářům generativních AI systémů docházejí data, která potřebují k trénování svých systému. Dosud všechny velké AI chatboty, jako je chatGPT, Google Bard nebo Claude, pracovali s daty, která firmy stáhly z internetu. Šlo o konverzace na sociálních sítích, obsah Wikipedie a dalších encyklopedií, digitalizované knihy, texty z blogů a další zdroje.

Odkaz na originální článek


Většinu použitelných dat už využili, a navíc narážejí na stále hlasitější protesty jejich autorů a vlastníků. Proto se začínají obracet k synteticky vytvořeným údajům, které připravují specializované AI systémy.

O tématu psal podrobně deník The Financial Times. Tvůrci AI systémů teď podle něj potřebují hlavně specializovaná data z různých oborů. Pořídit si je od firem nebo si je nechat zpracovat lidskými autory by vyšlo příliš draho.

Proto je nechávají generovat strojově. Data mohou vznikat například tak, že je vytvářejí dva AI systémy, které spolu „mluví“ o nějakém tématu, například o matematice. Lidský matematik pak jen zkontroluje, zda nebyly v konverzaci chyby. Na těchto datech se pak trénují další AI systémy.

Cesta nouze

Podle Petra Koubského, redaktora Deníku N, jde o postup, který by vývojáři nezvolili dobrovolně a který bude mít spíše svá negativa než pozitiva.

„Myslím si, že syntetická data mají hlavně nevýhody. Není to přirozený lidský jazyk, na kterém by se jazykové modely měly učit. Je tam veliké riziko, že kvalita bude klesat. To riziko je dobře známé, ale zejména copyrightové důvody vedou k tomu, že se k tomu musí přistupovat. Rozhodně to ale není řešení, které by si ti vývojáři zvolili dobrovolně. Jsou k němu dotlačeni, takže takové řešení z nouze,“ míní.

Internet není bezedný

The Financial Times také píše, že dnes už vývojáři potřebují hlavně specializovaná data z konkrétních úzce profilovaných vědních oborů, jako je matematika apod.

Jsou to informace, které nemohou nikde na internetu najít, a právě i proto používají syntetická data, která si nejdřív vloží do jednoho AI systému a ten pak konverzuje s druhým. Z toho vznikají data, která by normálně jinde neměli.